Карань Анна |
|||
Главная | О себе | Учеба | ФББ МГУ |
Нуклеотидный blast
Задание 1
В этот задании нужно определить таксономию и функцию прочтенной мной нуклеотидной последовательности (из практ. 6) Полученнная в 6 практикуме последовательность. Так как это нуклеотидная последовательность, и искать "гомологов" нужно по нуклеотидным последовательностям, это а сделать это можно в BlastN, начнем с него, а не с MegaBlast, так как последовательность достаточно большая (838 нуклеотидов), и мы ничего не знаем про её принадлежность к какому-то таксону (а есть даже виды с очень высоким уровнем полиморфизма) и про функцию, и лучше не использовать метод, ищущий только самые похожие. Но и с MegaBlast сразу же запустим, чтобы сравнить На основе первой выдачи и без каких-либо рассуждений можно сделать вывод о функции данной последовательности.
Рис.1. Выдача BlastN (Нажмите, чтобы увидеть приближенный вариант)
Если посмотреть на Рис.1., то становится очевидным, что изучаемая последовательность является геном 18s рибосомальной РНК какого-то организма. Все результаты при ограничении в 100 последовательностей - 18s рРНК. Далее нужно определить таксон. Построим дерево выдачи blast 1000 видов, здесь легенда для этого дерева. Unknown, синий в легенде, - это как раз последовательность изучаемого организма. Как видно, наиболее близкими к нему являются кольчатые черви (ярко-зеленым отмечены на дереве). Однако, мы можем определить таксон и дальше. 18s рРНК - очень консервативная последовательность, как раз на её основе строится филогения для отдаленных организмов, между человеческой и дрожжевой, например, сходство 75% (статья про сходство 18s рРНК. Так что велика вероятность, что наша последовательность как раз относится к таксону с самым большим Score, а это Scoloplos acutissimus, идентичность 98%, покрытие - 99%. У следующих же нескольких организмов (Рис.1.) идентичность 96% при том же покрытии. Чтобы доказать принадлежность последовательность первому виду посмотрим на полиморфизм последовательностей внутри рода Scoloplos и внутри видов.
Рис.2. Выдача Blast для Scoloplos acutissimus внутри рода Scoloplos
Рис.3. Выдача Blast для Scoloplos armiger внутри вида
Для достаточно большого покрытия, идентичность больше 98%. Я показала этот вид, так как
для Scoloplos acutissimus только 1 последовательность (род не очень изучен).
И как раз для выранивания нашей последовательности покрытие 99%, а идентичность 98%. Т.е. если
исследуемый организм принадлежит этому роду, то скорей всего виду Scoloplos acutissimus.
Для окончательного подтверждения, проверим уровень полиморфизма для видов и родов с покрытием 99%
и больше и идентичностью больше 95% (речь же идет о 18s рРНК).
Привожу здесь только результаты поиска, где было больше одной последовательности.
Вот скрины результатов -
Orbinia swani,
Leodamas (разные виды),
Leitoscoloplos (разные виды).
Для Orbinia покрытие доходит до 92%, а идентичность до 94% внутри рода. Для Leodamas
покрытие 100%, а идентичность 98%. Для Leitoscoloplos покрытие до 97%, а идентичность до 82%.
Отсюда следует, что исследуемый организм может принадлежать как роду Scoloplos, так и
Orbinia,Leitoscoloplos и другим для которых в банке оказалась одна последователньость рода. (трудно еще анализировать из-за малой изученности данных организмов,
мало секвенировано последовательностей).
Как же тогда определить таксон?
Рис.4. Верх таблицы таксонов для выдачи blast
На Рис.4. видно, что все вышеперечисленные рода и виды (в общем, организмы с самым высоким score
при анализе нашей последовательности) относятся к семейству Orbiniidae (Сколециды).
Поэтому можно утверждать, что исследуемый организм входит по крайней мере в семейство Orbiniidae.
Рис.5. Пример представителя Orbiniidae - Scoloplos acutissimus из
статьи
Задание 2
Здесь необходимо сравнить списки находок нуклеотидной последовательности 3-я разными алгоритмами blast. Чтобы адекватно сравнивать алгоритмы, нужно так задать ограничения на результаты, чтобы не сравнивать выдачи, где все 99%, но и 60% не подходит, нужна золотая середина, а также, чтобы было не очень много находок (несколько десятков). Для этого задания я взяла последовательность, используемую в прошлом задании. На Рис.6. показано, каким образом я задавала ограничения на находки.
Рис.6. Ограничения на принадлежность к каким-то таксонам результатов blast.
Остальные параметры blast:
Database: Others (nr etc.) Optimize for: как раз 3 варианта, 3 алгоритма Max target sequences: 1000 Expect threshold: 10 Word size: 11 (для blastn) Max matches in a query range: 0 Match/Mismatch Scores: 2,-3 Gap Costs: Existence: 5 Extension:2 Filter; Low complexiy regions Mask: Mask for lookup table only |
Таблица 1. Сравнение работы 3-х алгоритмов blast: blastn, discontiguous blast, megablast | ||||
Число находок | Максимальный E-value | Минимальное Query cover | Примеры находок, найденных этим алгоритмом, но не найденных каким-то другим | |
blastn | 99 | Phoronopsis harmeri mitochondrion, complete genome Terebratalia transversa wnt1 (wnt1) mRNA, complete cds Glottidia pyramidata mRNA for intermediate filament protein Neoancistrocrania norfolki isolate D1471 18S ribosomal RNA gene | ||
discontiguous blast | 95 | 3e-100 | 52% | |
megablast | 95 | 3e-100 | 35% |
Рис.7. Организмы, найденные blastn, но не найденные остальным алгоритмами.
На Рис.7. у всех организмов очень низкое покрытие (1-2%) и очень высокий E-value, это их и отличает от остальных находок. Это демонстрирует, что алгоритм blastn с той же длиной слова, что discontiguous blast, однако, в отличие от него, blastn представляет даже достаточно далекие последовательности, т.е. все "гомологи". Т.е., в отличие от discontiguous blast и megablast, blastn не отсекает находки с низким Query covery и E-value. А чем же отличаются между собой Discontiguous blast и megablast? На первый взгляд вроде бы ничем, одинаковое число находок, одинаковые значения Query covery, однако, есть отличия. Во-первых, в Таблице 1 и Рис.8. видно различие в минимальном Query covery. В обоих случаях это один и тот же организм, только в выдаче Discontiguous blast в этом организме 2 находки, которые суммируются, а в Megablast только одна, максимальная. Это потому что второе выравнивание для megablast уже с слишком низким e-value/query cover, или вообще не обнаруживается, так как длина слова у megablast 28, в отличие от 11 у остальных, он подходит для поиска среди более близких организмов.
Задание 3
В этом задании нужно проверить наличие гомологов трех белков в геноме одного организма - X5 (Amoеboaphelidium protococarum) Это вид из группы афелид из криптомицетов, близкой к микроспоридиям, паразитирует на водорослях.(Рис.8.)
Рис.8. Внешний вид Amoеboaphelidium protococarum.
Сборка генома X5 Вот белки, гомологи которых я буду искать в геноме.
RPB2_HUMAN - наибольшая субъединица ДНК-зависимой РНК-полимеразы II SDHA_HUMAN - субъединица сукцинат дегидрогеназы, флавопротеин UBB_HUMAN - убиквитин B |
RPB2_HUMAN - субъединица фермента из группы РНК-полимераз - белков, осуществляющих транскрипцию. Эукариоты обладают несколькими типами полимераз, изучаемая субъединица относится ко II РНК-полимеразе, которая производит предшественников для мРНК, а также для большинства мяРНК и миРНК. Это наиболее хорошо изученный тип РНК-полимеразы. Ввиду того, что транскрипция должна происходить под строгим контролем, РНК-полимеразе II для связывания с промоторами требуется целый набор факторов транскрипции. Последовательность RPB2 Находки blast RPB2 по геному Amoеboaphelidium protococarum Blast выдает 2 результата с высоким, очень близким score (1336 и 1341) и E-value равному 0 - scaffold-463, scaffold-359. Идентичность 58 и 59%, positive 75%. У остальных выравниваний слишком низкая идентичность, и если посмотреть на них внимательно нельзя выделить отдельную область с высоким сходством, предполагая гомологичность доменов. Это позволяет предположить, что у Amoеboaphelidium protococarum в геноме есть гомолог субъединицы РНК-полиеразы II. SDHA_HUMAN - субъединица белкового комплекса, расположенного во внутренней мембране митохондрий и мембранах многих прокариотических организмов. Одновременно участвует в цикле трикарбоновых кислот и дыхательной цепи переноса электронов. Последовательность SDHA Находки blast SDHA по геному Amoеboaphelidium protococarum Blast выдает 2 результата с высоким, очень близким score (827, 822) и E-value равному 0 - scaffold-199 и scaffold-212. Идентичность 68%, positive 79%. Это позволяет предположить, что у Amoеboaphelidium protococarum в геноме есть гомолог субъединицы сукцинат дегидрогеназы. UBB_HUMAN - убиквитин B, из групы небольших (8.5 кДа) консервативных белков эукариот, участвующих в регуляции процессов внутриклеточной деградации других белков, а также их функций. Последовательность UBB Находки blast UBB по геному Amoеboaphelidium protococarum И в геноме человека, например, есть множество белков, содержащих убиквитиновый домен, поэтому и blast выдает больше результатов, чем для прошлых белков. 1 находка в scaffold-105, 3 находки в scaffold-17 с идентичностью 95% и score 442, 420, 417, 416. Это почти однозначно говорит о наличии многих гомологов убиквитина в геноме Amoеboaphelidium protococarum. Есть еще множество одинаковых выравниваний в разных скэффолдах, но с меньшим score, возможно, это говорит о гомологии доменов, но точнее сказать трудно.
Задание 4
Последовательность scaffold-17, длиной 2125590
С помощью написанных ниже команд я узнала длины всех скэффолдов и выбрала скэффолд длиной
около 2 млн нуклеотидов, чтобы точно уместился ген.
Так как Amoеboaphelidium protococarum единственный секвенированный из рода, то поиск blast
по роду ничего не даст, поэтому в первый поиск ограничим его Cryptomonads (taxid:3027) и используем
megablast, чтобы искать точное соответствие. Однако, в этом случае слишком мало находок для достоверности определения гена.
Поэтому необходимо расширить поиск, взяв более высокий таксон, например Opisthokonta (taxid:33154).
Так как скэффод скорей всего будет больше гена, то слишком низкому query cover можно не удивляться.
Так и оказалось, у всех находок query cover равен 0, так как длина ген примерно 1000 нуклеотидов.
Рис.9. Находки megablast, по scaffold-17. Задание 5
В этом задании необходимо классифицировать геномы родственных вирусов по сходству последовательностей
Я выбрала вирус, который был у меня в первом семестре, Bunyamwera virus.
-L Akabane virus
-L Bunyamwera virus
-L Cat Que Virus
-L La Crosse virus
-L Oropouche virus
-L Simbu virus
Все последовательности L-сегментов вместе
-S Akabane virus
-S Bunyamwera virus
-S Cat Que Virus
-S La Crosse virus
-S Oropouche virus
-S Simbu virus
Все последовательности S-сегментов вместе
-M Akabane virus
-M Bunyamwera virus
-M Cat Que Virus
-M La Crosse virus
-M Oropouche virus
-M Simbu virus
Все последовательности M-сегментов вместе
Вариабельность, скорость эволюции и частота рекомбинации отличается у 3-х сегментов этих вирусов.
L-сегмент наиболее консервативный, M, особенно на начальных участков, наиболеее подвержен рекомбинации
и реасортации с другими видами, S примерно по середине. Попробуем сравнить по всем сегментам.
С помощью первой из вышеперечисленных команд создается база нуклеотидов на основе 6
последовательностей вирусов. С помощью второй создается таблица сравнения траснляции каждого генома
с трансляциями всех геномов.
Полученная tblastx, еще необработанная таблица для L-сегмента
Полученная tblastx, еще необработанная таблица для S-сегмента
Полученная tblastx, еще необработанная таблица для M-сегмента
С помощью вышеописанных команд были удалены неинформативные находки из выдачи tblastx. -s -
ограничение по identity, для M-сегмента значения ниже из-за его высокой вариабельности, -l -
ограничение по длине выравнивания, его значения отличаются по длине выравнивания, аналогично query cover.
-e - ограничение по E-value, 0,001 - стандартное общепринятое значение.
Обработанная таблица для L-сегмента
Обработанная таблица для S-сегмента
Обработанная таблица для M-сегмента
Excel таблица для всех сегментов
Попробуем проанализировать филогению по табице L-сегмента. Выравнивания с максимальной длиной -
2 Akabane/Simbu и Cat/Oropouche, дальше по убыванию также идут выравнивания Akabane/Simbu (еще 2) и
Cat/Oropouche (еще 2).
Если посчитать средние значения для выравниваний каждой группы, то максимальные (после обработки уже
остались только самые большие) они у Akabane/Bunyamwera (но выравнивание в данном случае только одно и
с небольшой длиной), а также Akabane/Simbu, таких выравнивания 4 и с наибольшей длиной, а identity
отличаются не сильно. Однако identity и длина выравнивания для остальных выравниваний Bunyamwera хуже, чем
с Akabane. Для Cat больше всего выравниваний с Oropouche и одно с Simbu, с неплохим identity и
относительно нормальной длиной. Среднее выше для Cat/Simbu, но лишь из-за того, что оно одно, если
посмотреть отдельно, то для Cat/Oropouche несколько выравниваний с большой длиной и более высокими значениями
identity.
На основе этого пока можно построить некоторые предположения об эволюционных отношениях вирусов.
Во-первых, Akabane и Simbu скорей всего самые близкие вирусы, как и Cat и Oropouche. С менее
убедительными доказательствами можно предположить близость Bunyamwera к группе Akabene/Simbu.
Score, в принципе, соответствует большой длине и идентичность, отдельно по нему сравнивать не имеет смысла.
Теперь перейдем к S-сегменту. Как и для L-сегмента выравнивания с наибольшей длиной соответствуют видам
Akabane/Simbu и Cat/Oropouche, также в верхушке рейтинга по длине находятся Oropouche/Simbu и
Akabane/Oropouche. И именно этих четырех типов выравниваний больше всего в сумме в
обработанной таблице. Единственные выравнивания Bunyamwera и La - это между собой.
Поэтому на данном этапе можно предположить такое дерево. (Рис.10)
Рис.10. Предполагаемое дерево 6 вирусов рода Orthobunyavirus.
Дальше проанализируем M-сегмент. Однако, как говорилось выше, M-сегмент самый вариаобельный и
горизонтальный перенос его частей между видами очень распространен. Однако, результаты не противоречат
таковым, полученным при анализе S- и L-сегментов. Самые длинные выравнивания - Cat/Oropouche,
Cat/Simbu, Akabane/Simbu и Oropouche/Simbu. А для Bunyamwera и La самые первые выравнивания по
длине и по количеству - это между собой.
Изображенное на Рис.10 дерево согласуется с рассуждениями по всем 3-м сегментам. Однако, эти рассуждения
не точны, поэтому построим для всех сегментов деревья в программе Mega 7 методом Neighbor-Joining.
Сначала были удалены участки с конца и начала, не кодирующие белок, дальше в Mega 7 было построено
выравнивание ClustalW c учетом кодонов (т.е. последовательность транслируется с самого начала,
так как мы уже выделили кодирующую последовательность).
Выравнивание Mega для L-сегмента
Выравнивание Mega для L-сегмента
Выравнивание Mega для L-сегмента
На основе этих выравнивниваний строятся деревья (Рис.11,Рис.12, Рис.13).
Рис.11. Дерево, построенное Neighbor-Joining method по L-сегменту
Рис.12. Дерево, построенное Neighbor-Joining method по M-сегменту
Рис.13. Дерево, построенное Neighbor-Joining method по S-сегменту
По всем сегментам деревья одинаковые и соответствуют предполагаемому из таблиц.
Чтобы окончательно удостоверится в верности примененных мною для анализа таблиц, которые позволили
получить верное дерево, сравним его с деревьями из литературных источников. (Рис.13)
Рис.13. Дерево Orthobunyavirus из литературы с изучаемыми видами, выделенными красным
[1].
Как видно, и это дерево аналогично всем полученным ранее.
Таким образом, 3-мя методами было получено одинаковое дерево, это достаточно повышает его шансы быть
верным.
©Карань Анна, 2015
infoseq <имя файла> -only -name -length
seqret <имя файла>:<имя последовательности> -out <имя выходного файла>
makeblastdb -in all.fasta -dbtype nucl
tblastx -query all.fasta -db all.fasta -outfmt 7 -out all_com
revise_blast_7.py -i all-M_com -s 50 -e 0.001 -l 30 -o all-m_found
revise_blast_7.py -i all-L_com -s 65 -e 0.001 -l 50 -o all-l_found
revise_blast_7.py -i all-S_com -s 65 -e 0.001 -l 9 -o all-s_found